最近的作品显示了深度学习模型在词汇(IV)场景文本识别中的巨大成功。但是,在现实情况下,播音外(OOV)单词非常重要,SOTA识别模型通常在OOV设置上表现较差。受到直觉的启发,即学习的语言先验有限的OOV预言性,我们设计了一个名为Vision语言自适应相互解码器(VLAMD)的框架,以部分解决OOV问题。 VLAMD由三个主要谱系组成。首先,我们建立了一个基于注意力的LSTM解码器,具有两个适应性合并的仅视觉模块,可产生视觉平衡的主分支。其次,我们添加了一个基于辅助查询的自动回归变压器解码头,以进行通用的视觉和语言先验表示学习。最后,我们将这两种设计与双向培训相结合,以进行更多样化的语言建模,并进行相互的顺序解码以获得强烈的结果。我们的方法在IV+OOV和OOV设置上分别实现了70.31 \%和59.61 \%单词的准确性,分别在ECCV 2022 TIE TIE Workshop上的OOV-ST挑战的裁剪单词识别任务上,我们在这两个设置上都获得了第一名。
translated by 谷歌翻译
平均场游戏(MFGS)是针对具有大量交互代理的系统的建模框架。他们在经济学,金融和游戏理论中有应用。标准化流(NFS)是一个深层生成模型的家族,通过使用可逆映射来计算数据的可能性,该映射通常通过使用神经网络进行参数化。它们对于密度建模和数据生成很有用。尽管对这两种模型进行了积极的研究,但很少有人注意到两者之间的关系。在这项工作中,我们通过将NF的训练视为解决MFG来揭示MFGS和NFS之间的联系。这是通过根据试剂轨迹重新解决MFG问题的实现,并通过流量体系结构对所得MFG的离散化进行参数化。通过这种联系,我们探讨了两个研究方向。首先,我们采用表达的NF体系结构来准确地求解高维MFG,以避开传统数值方法中维度的诅咒。与其他深度学习方法相比,我们的基于轨迹的公式编码神经网络中的连续性方程,从而更好地近似人口动态。其次,我们对NFS进行运输成本的培训正规,并显示了控制模型Lipschitz绑定的有效性,从而获得了更好的概括性能。我们通过对各种合成和现实生活数据集的全面实验来展示数值结果。
translated by 谷歌翻译
Table of contents (ToC) extraction aims to extract headings of different levels in documents to better understand the outline of the contents, which can be widely used for document understanding and information retrieval. Existing works often use hand-crafted features and predefined rule-based functions to detect headings and resolve the hierarchical relationship between headings. Both the benchmark and research based on deep learning are still limited. Accordingly, in this paper, we first introduce a standard dataset, HierDoc, including image samples from 650 documents of scientific papers with their content labels. Then we propose a novel end-to-end model by using the multimodal tree decoder (MTD) for ToC as a benchmark for HierDoc. The MTD model is mainly composed of three parts, namely encoder, classifier, and decoder. The encoder fuses the multimodality features of vision, text, and layout information for each entity of the document. Then the classifier recognizes and selects the heading entities. Next, to parse the hierarchical relationship between the heading entities, a tree-structured decoder is designed. To evaluate the performance, both the metric of tree-edit-distance similarity (TEDS) and F1-Measure are adopted. Finally, our MTD approach achieves an average TEDS of 87.2% and an average F1-Measure of 88.1% on the test set of HierDoc. The code and dataset will be released at: https://github.com/Pengfei-Hu/MTD.
translated by 谷歌翻译
As the Internet developed rapidly, it is important to choose suitable web services from a wide range of candidates. Quality of service (QoS) describes the performance of a web service dynamically with respect to the service requested by the service consumer. Moreover, the latent factorization of tenors (LFT) is very effective for discovering temporal patterns in high dimensional and sparse (HiDS) tensors. However, current LFT models suffer from a low convergence rate and rarely account for the effects of outliers. To address the above problems, this paper proposes an Alternating direction method of multipliers (ADMM)-based Outlier-Resilient Nonnegative Latent-factorization of Tensors model. We maintain the non-negativity of the model by constructing an augmented Lagrangian function with the ADMM optimization framework. In addition, the Cauchy function is taken as the metric function to reduce the impact on the model training. The empirical work on two dynamic QoS datasets shows that the proposed method has faster convergence and better performance on prediction accuracy.
translated by 谷歌翻译
由于复杂的背景和文本实例的不同变化,场景文本识别是一项具有挑战性的任务。在本文中,我们提出了一个新颖的语义gan和平衡的注意网络(SGBANET),以识别场景图像中的文本。提出的方法首先使用语义gan生成简单的语义功能,然后使用平衡的注意模块识别场景文本。语义GAN旨在使支持域和目标域之间的语义特征分布对齐。与在图像级别执行的传统图像到图像翻译方法不同,语义GAN通过语义生成器模块(SGM)和语义歧视器模块(SDM)在语义级别执行生成和歧视。对于目标图像(场景文本图像),语义生成器模块生成简单的语义特征,这些功能与支持图像(清晰的文本图像)共享相同的特征分布。语义鉴别器模块用于区分支​​持域和目标域之间的语义特征。此外,平衡的注意模块旨在减轻注意力漂移的问题。平衡注意模块首先根据视觉瞥见向量和语义瞥见向量学习平衡参数,然后执行平衡操作以获得平衡的瞥见向量。在六个基准测试的实验,包括常规数据集,即IIIT5K,SVT,ICDAR2013和不规则数据集,即ICDAR2015,SVTP,cute80,验证我们提出的方法的有效性。
translated by 谷歌翻译
第三代合作伙伴项目已开始研究2021年的第18版。人工智能(AI)空气界面是第18版的关键特征之一,其中选择了用于渠道状态信息的AI(CSI)反馈增强作为代表性。用例。本文提供了5G助长和6G中CSI反馈增强的AI的全面概述。首先介绍和讨论了5G效率的CSI反馈增强AI的范围,包括高架降低,准确性提高和渠道预测。然后,介绍并比较了三个代表性CSI反馈的代表性框架,包括单方面隐式反馈,基于双面自动编码器的隐式反馈和双面显式反馈。最后,已经确定和讨论了CSI反馈增强的AI标准化考虑因素,尤其是重点是评估,复杂性,协作,概括,信息共享,具有渠道预测的联合设计和互惠性。本文为基于AI的CSI反馈增强的标准化研究提供了指南。
translated by 谷歌翻译
通过大量多输入和多重输出实现的许多性能增长取决于发射机(基站)下链路通道状态信息(CSI)的准确性,这通常是通过在接收器(用户终端)估算并馈入的。到发射器。 CSI反馈的开销占据了大量的上行链路带宽资源,尤其是当传输天线数量较大时。基于深度学习(DL)的CSI反馈是指基于DL的自动编码器的CSI压缩和重建,并且可以大大减少反馈开销。在本文中,提供了有关该主题的最新研究的全面概述,首先是在CSI反馈中广泛使用的基本DL概念,然后对一些现有的基于DL的反馈作品进行分类和描述。重点是新型的神经网络体系结构和沟通专家知识的利用来提高CSI反馈准确性。还介绍了有关CSI反馈和CSI反馈与其他通信模块的联合设计的作品,并讨论了一些实际问题,包括培训数据集收集,在线培训,复杂性,概括和标准化效果。在本文的最后,确定了与未来无线通信系统中基于DL的CSI反馈相关的一些挑战和潜在的研究方向。
translated by 谷歌翻译
作为混合成像技术,光声显微镜(PAM)成像由于激光强度的最大允许暴露,组织中超声波的衰减以及换能器的固有噪声而受到噪声。去噪是降低噪声的后处理方法,并且可以恢复PAM图像质量。然而,之前的去噪技术通常严重依赖于数学前导者以及手动选择的参数,导致对不同噪声图像的不令人满意和慢的去噪能,这极大地阻碍了实用和临床应用。在这项工作中,我们提出了一种基于深度学习的方法,可以从PAM图像中除去复杂的噪声,没有数学前导者,并手动选择不同输入图像的设置。注意增强的生成对抗性网络用于提取图像特征并去除各种噪声。在合成和实际数据集上证明了所提出的方法,包括幻影(叶静脉)和体内(小鼠耳血管和斑马鱼颜料)实验。结果表明,与先前的PAM去噪方法相比,我们的方法在定性和定量上恢复图像时表现出良好的性能。此外,为256次\ times256 $像素的图像实现了0.016 s的去噪速度。我们的方法对于PAM图像的去噪有效和实用。
translated by 谷歌翻译
反事实遗憾最小化(CFR)}是在具有不完美信息的两个玩家零和游戏中查找近似NASH均衡的流行方法。 CFR通过迭代地遍历全游戏树来解决游戏,这限制了其在更大的游戏中的可扩展性。在将CFR应用于以前解决大型游戏时,大型游戏首先被抽象成小型游戏。其次,CFR用于解决抽象游戏。最后,解决方案策略被映射到原始大规模游戏。然而,该过程需要相当大的专家知识,抽象的准确性与专业知识密切相关。此外,抽象还失去了某些信息,最终会影响解决方案策略的准确性。对此问题,最近的方法,\纺织{Deep CFR}通过将深神经网络直接应用于完整游戏中的CFR来缓解抽象和专家知识的需求。在本文中,我们介绍了\ Texit {神经网络反事实遗憾最小化(NNCFR)},一种改进的\ Texit {Deep CFR},通过构造Dueling NetWok作为价值网络而具有更快的收敛性。此外,通过组合价值网络和蒙特卡罗来设计评估模块,这减少了值网络的近似误差。此外,新的损失函数是在提议的\ Texit {NNCFR}中的培训策略网络的过程中设计的,这可能很好,使策略网络更稳定。进行了广泛的实验测试,以表明\ Textit {nncfr}会聚得更快,并且比\ texit {deep cfr}更稳定,并且在测试中倾斜\ yexit {deep cfr} uperforms游戏。
translated by 谷歌翻译
Unsupervised domain adaptation (UDA) for semantic segmentation is a promising task freeing people from heavy annotation work. However, domain discrepancies in low-level image statistics and high-level contexts compromise the segmentation performance over the target domain. A key idea to tackle this problem is to perform both image-level and feature-level adaptation jointly. Unfortunately, there is a lack of such unified approaches for UDA tasks in the existing literature. This paper proposes a novel UDA pipeline for semantic segmentation that unifies image-level and feature-level adaptation. Concretely, for image-level domain shifts, we propose a global photometric alignment module and a global texture alignment module that align images in the source and target domains in terms of image-level properties. For feature-level domain shifts, we perform global manifold alignment by projecting pixel features from both domains onto the feature manifold of the source domain; and we further regularize category centers in the source domain through a category-oriented triplet loss and perform target domain consistency regularization over augmented target domain images. Experimental results demonstrate that our pipeline significantly outperforms previous methods. In the commonly tested GTA5$\rightarrow$Cityscapes task, our proposed method using Deeplab V3+ as the backbone surpasses previous SOTA by 8%, achieving 58.2% in mIoU.
translated by 谷歌翻译